智能论文笔记

AI Ethics Statements -- Analysis and lessons learnt from NeurIPS Broader Impact Statements

Carolyn Ashurst , Emmie Hine , Paul Sedille , Alexis Carlier

分类：人工智能 | 机器学习

2021-11-02

已提出伦理陈述作为提高透明度的机制，促进对公布研究的社会影响的思考。在2020年，通过要求所有文件包括更广泛的影响声明，机器学习（ML）会议神经潜水区破坏了新的地面。在2021年删除了这一要求，支持核对清单方法。因此，2020年陈述提供了从更广泛的影响实验中学习的独特机会：调查这种和类似治理机制的益处和挑战，并熟悉ML研究人员如何考虑自己工作的社会影响。这种学习是必要的，因为神经潮支和其他场地继续质疑并调整他们的政策。要启用此功能，我们已创建包含来自所有Neurips 2020文件的影响语句的数据集以及附加信息，如附属类型，位置和主题区域，以及用于探索的简单可视化工具。我们还提供了对数据集的初始定量分析，涵盖了代表性，参与，共同主题和愿意与福利讨论潜在危害的愿意。我们调查这些如何因地理，附属类型和主题领域而异。借鉴这些调查结果，我们讨论了道德声明要求的潜在利益和负面结果，以及他们可能的原因和相关挑战。这些导致我们从2020年要求中学到的几课：（i）创造正确的激励措施的重要性（ii）需要明确的预期和指导，以及（iii）透明度和建设性审议的重要性。我们鼓励其他研究人员使用我们的数据集来提供额外的分析，以进一步了解研究人员如何应对这一要求的理解，并调查这一要求和相关机制的益处和挑战。

translated by 谷歌翻译

大型预先训练的语言模型已经显示了几次拍摄学习的承诺，只提供了几个任务特定示例给出了基于文本的任务。款式将很快解决到目前为止为人类研究助理保留的分类任务吗？现有的基准标记不设计用于衡量应用设置的进度，因此不要直接回答这个问题。 RAFT基准（现实世界注释的少量拍摄任务）侧重于自然发生的任务，并使用镜像部署的评估设置。 RAFT的基线评估揭示了当前技术斗争的地区：推理在许多班级的长篇文章和任务上。人类基线表明，非专家人类难以反映出一些分类任务，反映了现实世界的价值有时依赖于域名专业知识。甚至非专业人类基线F1分数超过GPT-3平均为0.11。 RAFT DataSets和排行榜将跟踪哪些模型改进在https://raft.elict.org中转化为现实世界的优势。

translated by 谷歌翻译